在本文中,我们将解决方案介绍给Muse-Humor的多模式情感挑战(MUSE)2022的邮件,库穆尔人子挑战的目标是发现幽默并从德国足球馆的视听录音中计算出AUC新闻发布会。它是针对教练表现出的幽默的注释。对于此子挑战,我们首先使用变压器模块和BilstM模块构建一个判别模型,然后提出一种混合融合策略,以使用每种模式的预测结果来提高模型的性能。我们的实验证明了我们提出的模型和混合融合策略对多模式融合的有效性,并且我们在测试集中提出的模型的AUC为0.8972。
translated by 谷歌翻译
这里介绍了人工智能研究所(IARAI)组织的2022年Landslide4sense(L4S)竞赛的科学结果。竞争的目的是根据全球收集的卫星图像的大规模多个来源自动检测滑坡。 2022 L4S旨在促进有关使用卫星图像的语义分割任务的深度学习模型(DL)模型最新发展的跨学科研究。在过去的几年中,由于卷积神经网络(CNN)的发展,基于DL的模型已经达到了对图像解释的期望。本文的主要目的是介绍本次比赛中介绍的细节和表现最佳的算法。获胜的解决方案详细介绍了Swin Transformer,Segformer和U-NET等最先进的模型。还考虑了先进的机器学习技术和诸如硬采矿,自我培训和混合数据增强之类的策略。此外,我们描述了L4S基准数据集,以促进进一步的比较,并在线报告准确性评估的结果。可以在\ textIt {未来开发排行榜上访问数据,以供将来评估,\ url {https://www.iarai.ac.ac.at/landslide4sense/challenge/},并邀请研究人员提交更多预测结果,评估准确性在他们的方法中,将它们与其他用户的方法进行比较,理想情况下,改善了本文报告的滑坡检测结果。
translated by 谷歌翻译
卷积神经网络可以在语义细分任务中实现出色的性能。但是,这种神经网络方法在很大程度上依赖于昂贵的像素级注释。半监督学习是解决这个问题的有前途的决议,但其表现仍然远远落后于完全受监督的对手。这项工作提出了一个带有三个模块的跨教师培训框架,可显着改善传统的半监督学习方法。核心是跨教师模块,可以同时减少同伴网络之间的耦合以及教师和学生网络之间的错误积累。此外,我们提出了两个互补的对比学习模块。高级模块可以将高质量的知识从标记的数据传输到未标记的数据,并在特征空间中促进类之间的分离。低级模块可以鼓励从同伴网络中的高质量功能学习的低质量功能。在实验中,跨教师模块显着提高了传统的学生教师方法的性能,而我们的框架在基准数据集上的表现优于现行方法。我们的CTT源代码将发布。
translated by 谷歌翻译
带有嘈杂标签的训练深神经网络(DNN)实际上是具有挑战性的,因为不准确的标签严重降低了DNN的概括能力。以前的努力倾向于通过识别带有粗糙的小损失标准来减轻嘈杂标签的干扰的嘈杂数据来处理统一的denoising流中的零件或完整数据,而忽略了嘈杂样本的困难是不同的,因此是刚性和统一的。数据选择管道无法很好地解决此问题。在本文中,我们首先提出了一种称为CREMA的粗到精细的稳健学习方法,以分裂和串扰的方式处理嘈杂的数据。在粗糙水平中,干净和嘈杂的集合首先从统计意义上就可信度分开。由于实际上不可能正确对所有嘈杂样本进行分类,因此我们通过对每个样本的可信度进行建模来进一步处理它们。具体而言,对于清洁集,我们故意设计了一种基于内存的调制方案,以动态调整每个样本在训练过程中的历史可信度顺序方面的贡献,从而减轻了错误地分组为清洁集中的嘈杂样本的效果。同时,对于分类为嘈杂集的样品,提出了选择性标签更新策略,以纠正嘈杂的标签,同时减轻校正错误的问题。广泛的实验是基于不同方式的基准,包括图像分类(CIFAR,Clothing1M等)和文本识别(IMDB),具有合成或自然语义噪声,表明CREMA的优势和普遍性。
translated by 谷歌翻译
在本文中,我们介绍了2022年多模式情感分析挑战(MUSE)的解决方案,其中包括Muse-Humor,Muse-Rection和Muse Surns Sub-Challenges。 2022年穆斯穆斯(Muse 2022)着重于幽默检测,情绪反应和多模式的情感压力,利用不同的方式和数据集。在我们的工作中,提取了不同种类的多模式特征,包括声学,视觉,文本和生物学特征。这些功能由Temma和Gru融合到自发机制框架中。在本文中,1)提取了一些新的音频功能,面部表达功能和段落级文本嵌入以进行准确的改进。 2)我们通过挖掘和融合多模式特征来显着提高多模式情感预测的准确性和可靠性。 3)在模型培训中应用有效的数据增强策略,以减轻样本不平衡问题并防止模型形成学习有偏见的主题字符。对于博物馆的子挑战,我们的模型获得了0.8932的AUC分数。对于Muse Rection子挑战,我们在测试集上的Pearson相关系数为0.3879,它的表现优于所有其他参与者。对于Muse Surst Sub-Challenge,我们的方法在测试数据集上的唤醒和价值都优于基线,达到了0.5151的最终综合结果。
translated by 谷歌翻译
可靠的导航系统在机器人技术和自动驾驶中具有广泛的应用。当前方法采用开环过程,将传感器输入直接转换为动作。但是,这些开环方案由于概括不佳而在处理复杂而动态的现实情况方面具有挑战性。在模仿人类导航的情况下,我们添加了一个推理过程,将动作转换回内部潜在状态,形成了两阶段的感知,决策和推理的封闭环路。首先,VAE增强的演示学习赋予了模型对基本导航规则的理解。然后,在RL增强交互学习中的两个双重过程彼此产生奖励反馈,并共同增强了避免障碍能力。推理模型可以实质上促进概括和鲁棒性,并促进算法将算法的部署到现实世界的机器人,而无需精心转移。实验表明,与最先进的方法相比,我们的方法更适合新型方案。
translated by 谷歌翻译
尽管数十年的努力,但在真正的情景中的机器人导航具有波动性,不确定性,复杂性和歧义(vuca短暂),仍然是一个具有挑战性的话题。受到中枢神经系统(CNS)的启发,我们提出了一个在Vuca环境中的自主导航的分层多专家学习框架。通过考虑目标位置,路径成本和安全水平的启发式探索机制,上层执行同时映射探索和路线规划,以避免陷入盲巷,类似于CNS中的大脑。使用本地自适应模型融合多种差异策略,下层追求碰撞 - 避免和直接策略之间的平衡,作为CNS中的小脑。我们在多个平台上进行仿真和实际实验,包括腿部和轮式机器人。实验结果表明我们的算法在任务成就,时间效率和安全性方面优于现有方法。
translated by 谷歌翻译
最先进的深神经网络(DNN)已广泛应用于各种现实世界应用,并实现了认知问题的显着性能。然而,架构中的DNNS宽度和深度的增量导致大量参数,以质询存储和内存成本,限制了DNN在资源受限平台上的使用,例如便携式设备。通过将冗余模型转换为紧凑的模型,压缩技术似乎是降低存储和存储器消耗的实用解决方案。在本文中,我们开发了一种非线性张量环网(NTRN),其中通过张量环分解压缩全连接和卷积层。此外,为了减轻压缩引起的精度损失,将非线性激活功能嵌入到压缩层内的张量收缩和卷积操作中。实验结果表明,使用两个基本神经网络,LENET-5和VGG-11在三个数据集,VIZ上使用两个基本的神经网络,LENET-5和VGG-11进行图像分类的有效性和优越性。 mnist,时尚mnist和cifar-10。
translated by 谷歌翻译
风险的准确器官(OAR)分割对于减少治疗后并发症的放射治疗至关重要。达人指南推荐头部和颈部(H&N)区域的一套超过40桨的桨,然而,由于这项任务的可预测的禁止劳动力成本,大多数机构通过划定较小的桨子和忽视的少数,选择了大量简化的协议与其他桨相关的剂量分布。在这项工作中,我们提出了一种使用深度学习的新颖,自动化和高效的分层OAR分段(SOARS)系统,精确地描绘了一套全面的42 H&N OAR。 SOARS将42桨分层进入锚,中级和小型和硬质子类别,通过神经结构搜索(NAS)原则,专门为每个类别提供神经网络架构。我们在内在机构中使用176名培训患者建立了SOAR模型,并在六个不同的机构中独立评估了1327名外部患者。对于每个机构评估,它始终如一地表现出其他最先进的方法至少3-5%的骰子得分(在其他度量的相对误差减少36%)。更重要的是,广泛的多用户研究明显证明,98%的SOARE预测只需要非常轻微或没有直接临床验收的修订(节省90%的辐射脑神经工作负载),并且它们的分割和剂量准确度在于或小于帧 - 用户的变化。这些调查结果证实了H&N癌症放射疗法工作流OAR描绘过程的强烈临床适用性,提高了效率,全面性和质量。
translated by 谷歌翻译
在集成感测和通信(ISAC)系统中表征传感和通信性能权衡,在基于学习的人类运动识别的应用中具有挑战性。这是因为大型实验数据集和深神经网络的黑盒性质。本文介绍了SDP3,这是一种模拟驱动的性能预测指标和优化器,由SDP3数据模拟器,SDP3性能预测器和SDP3性能优化器组成。具体而言,SDP3数据模拟器在虚拟环境中生成生动的无线传感数据集,SDP3性能预测器预测基于函数回归方法的传感性能,而SDP3性能优化器会在分析上研究传感和通信性能。结果表明,模拟传感数据集在运动识别精度中非常匹配实验数据集。通过利用SDP3,发现可实现的识别准确性和通信吞吐量由通信饱和区组成,感应饱和区和通讯感应的对抗区域,ISAC系统的所需平衡性能位于第三个一。
translated by 谷歌翻译